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局 部 扩展 的 遗传 优化 重 双 社区 发 现 方法 


楚 杨 杰 ， 杨 忠 保 ， 洪 叶 
(武汉 理工 大 学 理学 院 , 武汉 430070) 


摘 要 : 重合 社区 结构 是 复杂 网 络 的 一 种 重要 的 特征 , 提出 了 一 种 局 部 扩展 的 遗传 优化 重 个 社区 发 现 (LEGAOCD) 。 
借鉴 局 部 扩展 的 重合 社区 发 现 方法 的 思想 ， 将 少数 的 核心 节点 构成 模 体 ; 同时 ， 利 用 了 三 角形 模 体 来 判断 社区 的 稳定 
性 度量 问题 ， 从 而 量化 社区 结构 稳定 性 ; 然后 通过 改进 的 遗传 优化 算法 策略 分 配 它们 应 归属 的 社区 ; 最 后 通过 两 个 评 
价目 标 豆 数 得 到 高 质量 的 重 琶 社区 结构 。 该 算法 在 数据 集 上 与 经 典 的 CPM 算法 .COPRA 算法 作 比 较 , 实验 结果 表明 ， 
LEGAOCD 算法 在 检测 重合 社区 结构 和 重合 节点 方面 具有 较 优 的 性 能 。 
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Local extension approach through genetic algorithm for overlapping community detection 


Chu Yangjie, Yang Zhongbao, Hong Ye 
(School of Science, Wuhan University of Technology, Wuhan 430070, China) 


Abstract : Overlapping community structure ls one of the most important features of complex network. This study proposed a 
local extended genetic algorithm optimization overlapping community detection(LEGAOCD) . It makes a few core nodes be 
constructed as die body, yet regards the main idea of local extended overlapping community detection as reference; at the same 
time, this paper uses the triangular model to judge the stability measure of the community, So as to quantify the stability of 
community structure. Then, the improved strategy of genetic algorithm is used to allocate the communities where they belong. 
Finally, the high-quality overlapping community structure ls obtained by two discriminant objective functions. After that, the 
LEGAOCD is compared with classical CPM and COPRA algorithms on the data sets, the results show that LEGAOCD possesses 


excellent comparatively in the aspects of detecting overlapping community structure and overlapping nodes. 
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静态 网 络 环境 下 ， 重 合 社 区 发 现 算法 大 约 分 为 五 类 ， 分 别 

是 派系 过 滤 方 法 、 局 部 扩展 方法 、 线 图 划分 方法 、 模 糊 聚 类 方 

社区 是 由 网 络 共 享 相同 属性 的 节点 构成 的 ， 社 区 在 表示 的 。 ”法 和 基于 Agent 方法 趾 。 其 中 经 典 算法 是 基于 团 渗 理 论 方法 
真实 系统 中 扮演 着 至 关 重 要 的 角色 ， 挖 掘 网 络 中 的 社区 结构 对 (CPM) BI、 基于 智能 体 类 方法 (COPRA) 中 和 社交 标签 传播 
于 帮助 分 析 网 络 的 属性 功能 具有 深刻 的 意义 叫 。 目 前 有 一 些 社 ”方法 CSLPAGI。 经 典 的 团 渗透 算法 属于 派系 过 滤 方 法 ， 它 能 发 
发 现 的 方法 肯 在 挖掘 网 络 中 的 标准 划分 ， 即 划分 结果 中 的 每 ” 现 较 大 的 社区 ， 挖 掘 小 社区 的 可 能 性 较 低 ， 算 法 运行 的 时 间 和 
个 节点 只 属于 一 个 社区 。 然 而 ， 现 实生 活 中 ， 节 点 往往 会 同时 ”空间 开销 过 高 , 使 得 无 法 应 用 于 较 大 网 络 。 COPRA 算法 属于 基 
隶属 于 多 个 社区 ， 如 在 社会 网 络 中 ， 每 一 人 会 有 很 多 身份 并 分 。 于 Agent 方法 ， 它 随机 选取 标签 ， 将 会 导致 该 算法 收敛 性 能 较 
别 隶 属于 不 同 的 生活 民 司 学 圈 、 朋 友 圈 、 家 庭 或 其 他 爱好 差 , 重用 社区 划分 的 结果 不 够 稳定 。SLPA 算法 也 属于 基于 
圈 。 在 科学 家 协作 网 络 中 ， 一 名 科学 研究 者 研究 不 同 的 领域 ， Agent 方法 ， 它 主要 设置 不 同 的 概率 准则 以 及 调整 参数 对 应 不 
这 些 领域 属于 不 同 的 研 科 团队 。 在 蛋白 质 网 络 中 ， 一 个 氨基 酸 的 标签 ， 导 致 该 算法 在 实际 应 用 过 程 中 对 不 同 网 络 进行 参数 
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往往 也 具有 不 同 的 生物 功能 外 。 因 此 ， 重 装 社 区 是 网 络 中 节点 调节， 难以 推广 。 

的 集合 ， 社 区 内 节点 同时 隶属 多 个 不 同 的 社区 ， 社 区 内 部 节点 本 文 提出 了 一 种 局 部 扩展 的 遗传 优化 重合 社区 发 现 
间 的 联系 较为 紧密 ， 而 属于 不 同 社区 的 节点 之 间 的 联系 较为 (LEGAOCD ) 。 借 鉴 局 部 扩展 的 重 爱 社区 发 现 方法 的 思想 , 将 
玻 。 从 而 重 麦 社区 发 现 则 更 加 真实 反映 出 网 络 的 组 成 结构 。 少数 的 核心 节点 构成 模 体 ， 同 时 ， 本 文 利用 了 三 角形 模 体 来 判 
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断 社区 的 稳定 性 度量 问题 ， 从 而 量化 社区 结构 稳定 性 。 然 后 通 
过 改进 的 遗传 优化 算法 策略 分 配 它们 应 归属 的 社区 ; 最 后 通过 
两 个 评价 目标 函数 得 到 高 质量 的 重奏 社区 结构 。 该 算法 在 数据 
集 上 与 经 典 的 CPM 算法 .COPRA 算法 作 比 较 , 实 验 结果 表明 ， 
LEGAOCD 算法 在 检测 重 又 社区 结构 和 重 肝 节点 方面 具有 较 优 


的 性 能 。 


1 基本 概念 


网 络 用 一 个 有 向 图 三 元 组 进行 表示 G=(V,E,W) ， 
其 中 Y 是 表示 图 的 节点 集合 ，E 表示 表示 图 中 的 边 集合 ，W 表 
示 图 的 边 权 和 集合。 有 权 方 向 we (pr,nr) 表示 相关 系数 ，P7 为 正 相 
关系 数 ，nr 为 负 相 关系 数 。 而 在 无 权 网 络 GV,E) 中 ， 如果 节点 
"与 节点 v 中间 有 边 相 接 ， 则 e=1， 否 则 ，e=0， 所 以 节点 ， 
的 度 右 表示 为 =, ye， 表 示 与 节点 v 相连 的 边 的 数目 。 节点 
六 的 点 权 * 定义 为 与 它 关 联 的 边 权 之 和 ， 也 称 为 点 强度 。 
定义 1 重 肢 网 络 社 区 结构 。 网 络 社区 结构 就 是 网 络 节点 
V 集 合 的 一 个 划分 mm 方 案 ?={6,c6…,c} ， 其 中 ，ci 必须 满足 如 


眼 设 一 


下 条 件 : 4 SV,czG(i=42…)，Ua=V 与 4m6*Giz# 四 。 所 以 


社区 的 点 强度 的 关系 为 ，s =(5) (s+(5)”-(5)”。 其 中 ， 


他) = 允 "表示 社区 6 内 的 节点 之 间 的 正 相关 的 内 部 点 强度 ; 


jec,wepr 


(= 己 ,* 表 示 社 区 6 内 的 节点 之 间 的 负 相 关 的 内 部 点 强度 ; 


(5) =- 世 ," 表示 社区 。 内 的 节点 之 间 的 正 相关 的 外 部 点 强 


度 ; (5) ”= 站 w 表 示 社 区 6 内 的 节点 之 间 的 负 相 关 的 外 部 点 


VjEc,Wenr 


强度 。 
网 络 中 节点 的 重要 程度 不 同 ， 核 心 节 点 具有 较 高 重要 性 ， 
而 普通 节点 则 是 网 络 中 的 参与 者 。 社 区 是 由 核心 节点 和 追随 节 
点 组 成 的 一 个 社区 结构 ， 划 分 网 络 结构 ， 要 找 出 社区 的 核心 节 
点 向 。 核 心 节点 对 网 络 的 运行 具有 主导 的 作用 。 
定义 2 最 大 核心 节点 的 度 定义 。 设 核心 节点 的 标签 集 为 
Q(W)=(wi…su) ， 则 最 大 核心 节点 的 度 定义 为 


degree (u, ): num(u, ) 


ion(u, ) = 二 


(1) 
N, 
p(n) La max(ion(u, )) 0O) 


两 个 公式 中 , 如 果 网 络 节点 i 为 核心 节点 , 则 =degreelw)， 
s;=num(w) 分 别 表示 重新 排序 后 的 节点 度 和 点 强度 。 如 果 这 样 
单纯 依赖 排序 结果 ， 选 择 初 始 核心 节点 会 带 来 潜在 风险 ， 多 个 
核心 节点 可 能 在 相同 社区 ， 按 从 大 到 小 的 选择 ， 可 能 会 把 一 个 
大 的 社区 分 解 为 若 个 小 社区 ;为 了 避免 这 些 问 题 ， 在 核心 节点 
选择 上 附加 一 些 约束 :为 了 避免 核心 节点 与 外 界 节 点 连接 较 少 ， 
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选择 的 核心 节点 的 点 强度 必须 大 于 网 络 中 所 有 的 节点 世 
强度 。 为 了 先后 选 出 的 几 个 核心 节点 在 同一 社区 ， 当 前 选择 的 
核心 节点 必须 和 已 有 核心 节点 相 邻 的 。 

定义 3 核心 节点 共同 邻居 。 核 心 节点 4 与 节点 的 共同 
邻居 定义 为 


Ci =neighbor(u,) MN neighbor(u,) G) 
其 中 ，neighborlu) 表示 核心 节点 4 的 邻居 节点 集 。 
定义 4 模 体 结构 。 模 体 介 于 个 体 与 社区 之 间 ， 少 数 几 个 
节点 连接 构成 ， 模 体 是 社区 内 部 成 员 之 间 基 本 的 连接 模式 ， 揭 
示 网 络 的 演化 规律 。 
定义 $S 加 权 社 区 聚 类 。 加 权 社 区 聚 类 四 ( Weighted 
Community Clustering) 是 测量 网 络 拓扑 性 的 目标 函数 , 它 是 依赖 
于 社区 的 三 角形 模 体 (三 个 节点 的 模 体 ) 决 定 该 社区 的 稳定 性 ， 
从 而 量化 社区 结构 质量 。 加 权 社 区 上 聚 类 定义 如 下 : 
HNP), wt) ee 


WCC(u, NP) =4 twV) INP\ul+ vtlu, V\ NP) (4) 


0 otherwise 


其 中 : tlu,NP) 表 示 核 心 节 点 4 与 节点 集合 NP 构成 三 角形 模 体 的 
数目 ， vi(u,V) 表示 节点 4 与 节点 集合 V 至 少 构成 一 个 三 角形 模 


体 的 节点 数目 ;|NP\d 表示 节点 集合 NP 除去 节点 4 的 数目 。 
定义 6 节点 与 社区 的 贴近 度 。 根 据 文献 [9] 节 点 与 社区 的 
贴近 度 定义 如 下 : 
WY er 人 Via\e 
pe (Gy -人 ) (人 -人 ) (5) 
而 重 琶 节点 与 社区 的 贴近 度 定义 如 下 : 
加 下 (uc) 
OD!(u, c) 学 之 Foe) 了 Flu,c,) (6) 


其 中 : a 为 分 辨 率 系数 , 用 来 控制 社区 的 大 小 ; “为 社区 ，c+ 雪 
是 指 在 社区 “中 加 入 节点 “形成 新 的 社区 。 

定义 7: 模块 度 。 模 块 度 用 来 对 重 登 社区 划分 的 整体 质量 
作出 一 个 定量 的 评价 ， 根 据 正 负 相 关 的 边 权 情况 ， 采 取 合适 性 
能 的 模块 度 ， 根 据 文献 [9] 改 进 定义 如 下 : 


2- 元 22， 55 -{ 竖 -到 (7) 
其 中 : 5 与 5 分 别 表示 关于 节点 i 所 有 的 正 与 负 相 关 的 权重 之 
和 ; 特别 地 ，w, 表示 网 络 相 关 权 重 的 邻接 矩阵 ; 如 果 节 点 » 属 
于 社区 c 内 ， 则 0 =1 ; 否则 ， oO =0 o 


2 ”局 部 扩展 的 遗传 优化 重 双 社区 发 现 方法 


本 文 以 遗传 优化 算法 为 背景 知识 解决 网 络 中 的 重叠 社 区 发 
现 问 题 ， 旨 在 挖掘 出 高 质量 的 重 半 社区 结构 。 本 文 所 提 的 算法 


节 


流程 框架 如 下 : 
算法 1: LEGAOCD 算法 


输入 : 网 络 拓扑 结构 G=(V,EW) 

输出 : 重 登 社区 划分 集合 p= ee 和 ce】 

1: 为 网 络 的 核心 节点 进行 编码 ; 

2: 根据 核心 节点 的 邻接 矩阵 4 和 点 强度 的 关联 窍 阵 w ; 
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录用 稿 楚 杨 杰 ， 等 : 局 部 扩展 的 遗传 优化 重 盖 社区 发 现 方法 
3: 种 群 的 初始 化 ; (1,1,1,1,1,1), 则 整个 社区 结构 被 破坏 。 解 码 过 程 针 对 任意 个 体 ， 
4: NPegu Ot=12,.,) 其 初始 社区 标签 为 NPO)G=12…,k-D) ， 设 NPWD=1 ， 如 果 
5: foreachcorenode "in Vdo NP(D) = NPQ) ,社区 结构 合并 ,如 同 算法 步骤 9。 如果 NPG NPQ)， 
6: 这 WCCG@,NP)#0 ;totl 则 NPQ2)=2，, 以 此 类 推 , 如 果 此 时 -1 时 是 当前 最 大 社区 标签 值 
7: while (<) do 才 结 束 。 整 个 解码 过 程 ， 个 体 (1,1,12,2,2,2) 和 “2,2,3,3,3,3) 解 码 
8: if WCCG,, NP)> WCCu,, NP) then 为 (1,1,12,2,2,2) 和 (1,1,12,2,2,2)， 然 后 再 和 其 他 个 体 进行 交叉 操 
9: NP NPU {un) 作 ， 保 留 稳定 性 较 强 的 社区 结构 。 解 码 后 ， 节 点 的 标签 值 表示 
10: else 节点 属于 社区 编号 。 

ll: 计算 适应 度 函 数 Ftd) ， 选 择 算 子 ; 

12: 进化 操作 ， 具 体 包括 均匀 交叉 和 变异 ; Pe | 

13: 子 代 种 群 ， 合 并 种 群 ， 精 英 选 择 ， 返 回 步 又 3; j i 

14: 。” 当 w=k 时， 输出 众多 粗粮 的 重 伙 社区 结构 。 晤 一 一 一 国 : &Y EF 

15: end & / © § |2 

16: end 和 2 6 2 


17: while zm do 


图 1 6 个 节点 网 络 被 划分 两 个 社区 结构 {1,2,3} 和 {3,4,5,6} 


18: foreach overlapping node * in Vdo 
19: if WCC(,NP)>WCCu,NP,) then 2.2 选择 
20: use 5Q 选择 的 目的 是 为 了 从 当前 群体 中 选 出 优良 的 个 体 ， 使 它们 
21: else 有 机 会 作为 父 代 为 下 一 代 繁殖 子孙 。 遗 传 算法 通过 选择 过 程 体 
22: use ODO) 现 这 一 思想 ， 进 行 选 择 的 原则 是 适应 性 强 的 个 体 为 下 一 代 贡 献 
23: 当 "=m 时 ， 得 到 高 质量 的 重 县 社区 结构 一 个 或 多 个 后 代 的 概率 大 。 选 择 体 现 了 达尔 文 的 适 者 生存 原则 ， 
24: end 本 文采 用 轮 盘 选择 方式 DJ， 利用 定义 6 的 计算 公式 为 适应 度 函 
25:end 数 。 
26: 将 所 有 的 节点 按照 共有 邻居 有 序 扩 展 集合 得 到 P。 2.3 ”遗传 进化 操作 更 新 策略 

LEGAOCD 算法 的 第 1、2 行 属于 准备 工作 , 将 网 络 拓扑 结 遗传 进化 操作 包括 交叉 和 变异 。 交 叉 是 通过 交换 父 代 染色 


马上 


构 量 化 处 理 ; 第 3~16 行 属于 改进 的 遗传 优化 算法 策略 分 配 它 。 体 中 的 部 分 基因 产生 新 的 后 代 ， 新 个 体 组 合 了 其 父 代 个 体 的 
们 应 归属 的 社区 ; 第 17~26 行 属于 社区 结构 质量 提高 预 处 理 阶 ”性 。 交 叉 体 现 了 信息 交换 的 思想 。 本 文采 用 均匀 交叉 的 二 维 
段 。 又 的 交叉 算 子 L933， 将 父 代 染色 体 两 两 分 组 ， 就 会 随机 产生 一 
算法 时 间 复 杂 度 分 析 : 7 为 网 络 节点 的 数目 ，& 为 网 络 中 ”均匀 块 交叉 算 子 ， 交 叉 算 子 将 根据 预 设 的 交叉 概率 交换 两 个 父 
核心 节点 的 数目 ， 普 为 重 考 社区 结构 的 数目 。LEGAOCD 算法 ，” 代 染 色 体 在 矩形 块 中 的 基因 部 分 ， 模 体 、 个 体 、 社 区 都 能 用 和 矩 
的 第 1、2 行 用 时 为 0m) ， 第 3~16 行 是 属于 遗传 过 程 ， 算 法 的 形 块 表示 出 来 ， 例 如 ， 两 个 矩形 块 (1,1,12,2,.2.2) 和 2,2,3,3,3,3) 
解码 时 间 为 0(x) ， 选 择 、 交 叉 、 变 异 操作 时 间 为 OCm+I ， 第 交叉 后 ， 解 码 为 (1,1,12,2,2,2) 和 (1,1,12,2,2,2)。 从 而 改变 节点 的 
17~26 行 用 时 为 Cn 。 在 遗传 算法 中 ， 种 群 数量 为 上 ， 友 代 次 。” 标签 值 ， 和 矩形 块 的 大 小 和 位 置 是 随机 产生 的 。 使 用 均匀 块 交 叉 
数 为 8 。 则 LEGAOCD 算法 时 间 复 杂 度 为 O(gplog(p*(m+k+m)) 。 算 子 能 保证 交叉 产生 的 后 代 染 色 体 的 每 个 基因 都 是 已 有 边 的 邻 
2.1 个 体 的 编码 与 解码 接 边 ， 使 得 算法 仍然 是 朝 着 矩形 块 〈 模 体 ) 稳定 的 方向 进行 网 
初始 化 ， 网 络 的 所 有 的 节点 、 社 区 、 各 节点 与 算法 中 的 种 。 络 结构 划分 。 变 异 在 群体 中 随机 选择 一 个 个 体 ， 对 于 选中 的 个 
群 、 个 体 、 基 因 互 相映 射 。 借 鉴 标签 传播 算法 的 思想 ， 标 签 传 ” 体 以 一 定 的 概率 随机 地 改变 社区 里 某 个 节点 的 标签 植 。 变 异 算 
播 算法 能 够 产生 有 一 定 社区 结构 的 个 体 ， 节 点 的 点 强度 越 大 ， 子 是 以 预 设 的 概率 改变 个 体 的 某 个 节点 的 标签 值 ， 变 异 发 生 的 
那么 这 个 节点 对 它 隶 属 的 社区 稳定 性 和 影响 力也 就 越 大 。 随 机 “概率 很 低 。 
产生 个 体 ， 多 个 个 体 构成 了 一 个 群体 。 本 文采 用 字符 串 编码 方 a 
式 ， 网 络 的 非 重 又 核心 节点 所 属 社 区 仅仅 是 一 个 标志 符 ， 而 重 
县 核心 节点 有 多 个 标识 符 。 图 1 展示 了 一 个 网 络 划分 和 相应 有 LEGAOCD 算法 、CPM 算法 、COPRA 算法 均 在 
编码 。 如 图 1 所 示 的 网 络 可 能 存在 两 个 个 体 (1,1,12,2,2,2) 和 ”Matlab(R2010b) 编 码 实现 。 实 验 环境 设置 为 : windows 7 操作 系 
(2,2,3,3,3,3)， 第 一 个 个 体 中 存在 两 个 重 苹 社区 {1,2,3} 和 ” 统 ，AMD A-82.10GHz,500GB 内 存 。 根 据 遗 传 算法 的 设置 参数 
{3,4,5,6}; 第 二 个 个 体 存在 非 重 到 的 两 个 社区 {1,2} 和 {3,4,5,6}.。 ”实验 可 知 : 标准 互信 息 的 值 (NMI 的 值 ) 随 着 交叉 概率 和 变异 
如 果 这 两 个 个 体 之 间 进 行 交 叉 操 作 后 得 到 结果 可 能 是 ” 概率 的 变化 ,NMI 的 值 没 有 表现 出 明显 的 变化 ,设置 实验 参数 
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般 采 用 高 的 交叉 概率 和 低 的 变异 概率 03。 所 以 ， 为 了 方便 检 
测算 法 的 性 能 ， 实 验 参 数 设置 与 一 种 新 的 遗传 算法 重 辣 社区 检 
测 方法 0 相同 ， 实 验 参 数 设 为 : 控制 参数 为 a=0.97 ， 交 叉 概 率 
为 p. =0.8， 变异 概 率 为 p,, =0.2， 种群 数量 为 p=200 ， 和 迭代 次 数 
为 8=100 。LEGAOCD 算法 、CPM 算法 、COPRA 算法 的 结果 
为 运行 50 次 取 平 均值 。 


pp 


3.1 评价 标准 
F-score 是 由 准确 率 和 召回 率 的 组 成 计算 得 到 的 , 用 来 衡量 
算法 检测 的 重 又 节点 的 准确 性 的 一 个 指标 趾 , 公式 可 推 必 如下: 
p_ leawl Nel Rl | 六 | 有 | (8) 
[Bl L0 | 
2P.R 
“PTR 9) 
三 个 公式 中 ，|Liw| 表 示 算 法 得 到 的 社区 ，|5| 表 示 真 实 的 
社区 ; P 为 准确 率 ， 它 是 指正 确 检 测 的 重合 节 点 数目 占 所 有 检 
测 到 的 重 琶 节点 数目 的 比例 ，R 为 召回 率 ， 它 是 指正 确 检测 的 
重 共 节点 数目 占 网 络 中 真正 的 重 芭 节点 数目 的 比例 。 
扩展 的 规范 互信 息 量 (normalized mutual information,NMD) 
用 来 描述 划分 结果 与 真实 结构 之 间 的 相关 性 03， 它 的 取 值 范围 
为 [0.1]， 值 越 接近 1 表示 划分 结果 越 好 。 数 学 描述 如 下 : 
N=1-3[HCX IW+ HCY I) (10) 
_1H(X.|Y) 
vse en (11) 
其 中 : XQ) 是 指 划分 社区 c(c)) 相关 的 随机 变量 ，H(X1Y) 是 在 


划分 了 7 下 X 的 归 一 条 件 箭 。 
3.2 算法 比较 结果 评价 


模拟 数据 集 主要 由 LFR09 基 准 图 组 成 , 选择 不 同 的 参数 生 
成 不 同 的 LFR 基准 图 ， 不 同 的 参数 生成 不 同类 型 的 复杂 网 络 。 
和 表示 网 络 节 点 数目 ， 丰 为 网 络 中 节点 的 平均 度数 ， ke 是 指 
网 络 中 最 大 度数 ，4 表示 可 调 的 模糊 参数 〈 混 合 参数 ) ， 0, 与 
0, 分 别 是 指 重 装 节 点 数目 和 重 盖 节点 社区 从 属 数 目 ,表示 节 
点 度 的 蛙 率 分 布 系数 ，= 为 社区 规模 的 蛙 率 分 布 系统 ， cw 与 
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致 (0 中。F-score 值 比较 结果 如 图 
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图 3 算法 在 模拟 数据 
三 种 算法 在 真实 数据 集 网 络 


cas 分 别 是 指 网 络 中 社区 的 最 小 规模 和 最 大 规模 。 当 LFR 基准 


网 络 参数 设 定 为 : TT =50, 设置 混合 参 


数 为 4=03 ， 它 是 指 在 同一 个 社区 内 一 个 节点 和 其 他 节点 的 链 
接 率 ; 网 络 中 社区 规模 设置 为 (20,100) ; 重合 节点 个 数 2, 设置 为 
占 网 络 所 有 节点 的 10% ; 重复 节点 所 属 社区 的 个 数 0, 设置 为 
2,3,4,5,6 ; 0, 值 越 大 ， 划 分 重 辣 社区 结构 的 难度 越 大 。 而 真实 


数据 集 的 基本 信息 如 表 1 所 示 。 

三 种 算法 在 模拟 数据 集 的 NMI 值 受 混合 参数 /与 重 有 节 
点 社区 从 属 数目 0, 的 影响 ， 随 着 它们 越 大 ， 划 分 重奏 社区 结构 
的 难度 越 大 。 图 2 所 示 ， 当 w=0.3 时 ， 随 着 0, 从 2~6 变化 ， 三 
种 算法 的 性 能 都 会 下 降 ， 与 两 种 算法 相 比 ，LEGAOCD 算法 仍 
能 得 到 较 高 NMI 值 , 说 明 本 文 所 提 的 算法 在 划分 模拟 数据 集 网 
络 中 有 了 较 好 的 性 能 。 


得 到 的 SQ 值 都 在 0.5 以 上 ， 


具有 较 清楚 的 网 络 划 分 社区 结构 , 如 图 4 展示 了 LEGAOCD 算 


法 在 真实 数据 集 网 络 得 到 的 SQ 值 都 比 其 他 算法 较 高 〈 除 PGP 
外 ) ， 在 较 大 的 PGP 网 络 中 ，LEGAOCD 算法 比 CPM 算法 的 


SQ 值 较 高 ， 但 比 COPRA 算法 的 SQ 


值 较 低 。 
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4 ”结束 语 


本 文 提 出 局 部 扩展 的 遗传 优化 重 故 社区 发 现 算法 ,主要 贡 
献 体现 在 三 方面 : 扩展 的 遗传 算法 以 解决 重 辣 社区 发 现 问题 
定义 了 模 体 稳定 性 的 度量 ， 从 而 量化 社区 稳定 性 ， 忆 点 与 社区 
的 贴近 度 公 式 为 遗传 算法 的 适应 度 函 数 。 面 对 大 型 网 络 ， 
LEGAOCD 算法 与 CPM pa 的 时 间 和 空间 开销 过 高 ， 如 
何在 大 型 网 络 挖掘 出 较 清楚 的 社团 结构 将 是 下 一 个 研究 的 方向 。 
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